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The invention relates to a unit which is controlled by a logical load 
unit (PLU), and which can be configured or reconfigured during running 
time, according to the following configuration: the invention provides for a 
programmable arithmetic logic unit (EALU), whose function and network 
connection are programmed in registers in which a plurality of data can 
be processed without reprogramming of the processing elements (PAE). 
To control the arithmetic logic unit (EALU), the invention provides for a 
state machine (SM-UNIT); it further provides registers for each operand 
(O-REG) and the result (R-REG), which are designed in part to act as 
shift registers. Feedback of the data of the results register takes place 
via a multiplexer (R20-MUX) to one of the inputs of the EALU. A bus 
multiplexing unit (BM-UNIT) makes it possible for the data to be taken 
from a bus system or for the result to be fed into a bus system, whereby 
the bus unit can send data to several receivers and synchronisation, even of 
several receivers, takes place automatically. The registers prevent the data 
processing system in the EALU to have access to the bus, so that each PAE can be considered an independent unit in that the configuration 
or reconfiguration of a PAE does not disturb the data originators and receivers or the independent PAEs. 




(57) Zusammenfassung 

In Verbindung mit einer konfigurierbaren und zur Laufzeit umkonfigurierbaren Einheit gesteuert von einer Ladelogik (PLU), wird 
folgende Konfiguration vorgeschlagen: Es ist eine programmierbare Recheneinheit (EALU) vorgesehen, deren Funktion und Vernetzung 
in Registern programmiert wird und in denen eine Vielzahl von Daten, ohne Umprogrammierung der PAE, verarbeitet werden kann. Zur 
Steuerung der Recheneinheit (EALU) ist eine Zustandsmaschine (SM-UNIT) vorgesehen; ferner sind fur jeden Operanden (O-REG) und 
das Ergebnis (R-REG) Register vorgesehen, die teilweise als Schieberegister ausgefiihrt werden konnen. Die Ruckkopplung der Daten 
des Ergebnisregisters erfolgt tiber einen Multiplexer (R20-MUX) auf einen Eingang der EALU. Eine Buseinheit (BM-UNIT) ermoglicht 
den Abgriff der Daten von einem Bussystem bzw. das Einspeisen des Ergebnisses auf ein Bussystem, wobei die Buseinheit Daten an 
mehrere Empfanger versenden kann und die Synchronisierung auch mehrerer Empfanger automatisch erfolgt. Der Buszugriff von der 
Datenverarbeitung in der EALU ist fiber die Register entkoppelt, womit jede PAE als unabhangige Einheit betrachtet werden kann, so dass 
die Konfiguration und Umkonfiguration einer PAE keinen stdrenden Einfluss auf die Datensender und Empfanger, sowie die unabhangigen 
PAEs hat. 



LEDIGLICH ZUR INFORMATION 

Codes zur Identifizierung von PCT-Vertragsstaaten auf den Kopfbdgen der Schriften, die internationale Anmeldungen gemSss dem 
PCT verdffentlichen. 



AL 


Albanien 


ES 


Spanien 


LS 


Lesotho 


SI 


Slowenien 


AM 


Armenien 


FI 


Finnland 


LT 


Litauen 


SK 


Slowakei 


AT 


Osterreich 


FR 


Frankreich 


LU 


Luxemburg 


SN 


Senegal 


AU 


Austral i en 


GA 


Gabun 


LV 


Lettland 


sz 


Swasiland 


AZ 


Aserbaidschan 


GB 


Vereinigtes KOnigreich 


MC 


Monaco 


TD 


Tschad 


BA 


Bosnien-Herzegowina 


GE 


Georgien 


MD 


Republik Moldau 


TG 


Togo 


BB 


Barbados 


GH 


Ghana 


MG 


Madagaskar 


TJ 


Tadschikistan 


BE 


Betgien 


GN 


Guinea 


MK 


Die ehemalige jugoslawische 


TM 


Turkmenistan 


BF 


Burkina Faso 


GR 


Griechenland 




Republik Mazedonien 


TR 


TTirkei 


BG 


Bulgarien 


HU 


Ungarn 


ML 


Mali 


TT 


Trinidad und Tobago 


BJ 


Benin 


IE 


Irland 


MN 


Mongolei 


UA 


Ukraine 


BR 


Brasilien 


IL 


Israel 


MR 


Mauretanien 


UG 


Uganda 


BY 


Belarus 


IS 


Island 


MW 


Malawi 


US 


Vereinigte Staaten von 


CA 


Kanada 


IT 


Italien 


MX 


Mexiko 




Amerika 


CF 


Zentralafrikanische Republik 


JP 


Japan 


NE 


Niger 


uz 


Usbekistan 


CG 


Kongo 


KE 


Kenia 


NL 


Niederlande 


VN 


Vietnam 


CH 


Schweiz 


KG 


Kirgisistan 


NO 


Norwegen 


YU 


Jugoslawien 


CI 


Cfite d'lvoire 


KP 


Demokratische Volksrcpublik 


NZ 


Neuseeland 


zw 


Zimbabwe 


CM 


Kamemn 




Korea 


PL 


Polen 






CN 


China 


KR 


Republik Korea 


PT 


Portugal 






cu 


Kuba 


KZ 


Kasachstan 


RO 


Rum an i en 






cz 


Tschechischc Republik 


LC 


St. Lucia 


RU 


Russische Federation 






DE 


Deutschland 


LI 


Liechtenstein 


SD 


Sudan 






DK 


Danemark 


LK 


Sri Lanka 


SE 


Schweden 






EE 


Estland 


LR 


Liberia 


SG 


Singapur 







WO 98/26356 



PCT/DE97/02949 



EINHEIT ZUR VERARBEITUNG VON NUMERISCHEN UND LOGISCHEN OPERATIONEN, ZUM 
EINSATZ IN PROZESOREN (CPUS), MEHRRECHNERSYSTEMEN. 



1. Hintergrund der Erfindung 
1.1 Stand der Technik 

In der Of fenlegungsschrif t DE 44 16 881 Al ist ein Verfahren zur 
Verarbeitung von Daten beschrieben. Dabei werden in ihrer 
Funktion und Vernetzung weitgehend frei konf igurierbare, homogen 
angeordnete Zellen verwendet. 

UnabhSngig von der erwahnten Of f enlegungsschrif t werden 
zunehmend FPGA-Bausteine (frei progranunierbare Logikbausteine) 
verwendet, urn Rechenwerke und Datenverarbeitungseinrichtungen 
aus einer Vielzahl einzelner Logikzellen aufzubauen. 
Ein weiteres bekanntes Verfahren ist der Aufbau von 
Datenverarbeitungseinrichtungen aus festen, programmgesteuerten 
Rechenwerken mit weitgehend fester Vernetzung, sogenannten 
systolischen Prozessoren. 

1.2 Probleme 

1.2.1 Bausteine nach DE 44 16 881 Al 

Bausteine nach dem in DE 44 16 881 Al beschriebenen Verfahren (im 
folgenden VPUs genannt) sind aufgrund der hohen Zahl kleiner 
Logikzellen sehr aufwendig zu konf igurieren. Zur Steuerung einer 
Logikzelle sind mehrere Steuer-Bit in einem statischen Speicher 
(SRAM) anzugeben. Filr jede Logikzelle existiert eine SRAM- 
Adresse. Die Zahl der zu konf igurierenden SRAM-Zellen ist sehr 
hoch, was zu einem erheblichen Platzbedarf und Zeitaufwand ftlr 
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. die Konf iguration und Umkonf iguration eines solchen Bausteines 
ftthrt. Der hohe Platzbedarf ist besonders unangenehm, da die 
Verarbeitungsleistung einer VPU mit steigender Zahl der Zellen 
zunimmt. Jedoch ist die verwendbare Flache eines Bausteines 
durch die Chipf ertigungstechnologien begrenzt. Der Preis eines 
Chips steigt etwa quadratisch zur Chipf lache. Aufgrund der 
mehrfach abgebildeten Next-Neighbour Vernetzungsstruktur ist ein 
Broadcast, also das Senden von Daten an mehrere Empfanger 
gleichzeitig, unmoglich. Sollten VPUs im Betrieb umkonf iguriert 
werden, ist es zwingend erforderlich kurze 

Umkonf igurationszeiten zu erreichen. Dagegen steht jedoch die 
grofie Anzahl an Konf igurationsdaten die benotigt werden, urn den 
Chip umzukonf igurieren. Es existiert keine Moglichkeit Zellen 
von der Versorgungsspannung zu trennen oder langsamer zu takten, 
urn die Verlustleistung zu minimieren. 

1.2,2 FPGAs 

Fur den beschriebenen Einsatzbereich interessante FPGAs bestehen 
zumeist aus Multiplexer oder Look-Up-Table (LUT) Strukturen. Zur 
Implementierung werden SRAM-Zellen eingesetzt. Aufgrund der 
Vielzahl an kleinen SRAM-Zellen sind sie sehr aufwendig zu 
konf igurieren. Es sind grofie Datenmengen erforderlich, die einen 
entsprechend grofien Zeitaufwand zum Konf igurieren und 
Umkonf igurieren erfordern. SRAM-Zellen benotigen sehr viel 
Platz. Jedoch ist die verwendbare Flache eines Bausteines durch 
die Chipf ertigungstechnologien begrenzt. Der Preis steigt auch 
hier etwa quadratisch zur Chipf lache. SRAM basierende 
Technologie ist durch die Zugriffszeit auf den SRAM langsamer 
als direkt integrierte Logik. Obwohl viele FPGAs auf 
Busstrukturen aufbauen, sind keinerlei Broadcast-Moglichkeiten 
zum schnellen und effektiven Senden von Daten an mehrere 
Empfanger gleichzeitig gegeben. Sollen FPGAs im Betrieb 
umkonf iguriert werden, ist es zwingend erforderlich kurze 
Konf igurationszeiten zu erreichen. Dagegen steht jedoch die 
grofie Anzahl an Konf igurationsdaten die benotigt werden. FPGAs 
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bieten keinerlei Unterstiitzung ftir eine sinnvolle 
Umkonf igurierung im Betrieb. Der Programmierer hat da ftir zu 
sorgen, dafi der Vorgang ordentlich ohne storende Einfllisse auf 
Daten und umgebende Logik abiauft. Eine intelligente Logik zum 
Minimieren der Verlustleistung ist nicht vorhanden. Es bestehen 
keine speziellen Funktionseinheiten, die eine RUckmeldung der 
internen Betriebszustande an die das FPGA steuernde Logik 
ermoglichen. 

1.2.3 Systolische Prozessoren 

Bei systolischen Prozessoren entfailt die Umkonf igurierung 
komplett, jedoch sind diese Prozessoren unflexibel, da sie einen 
starren internen Aufbau besitzen. Befehle werden in jedem Zyklus 
neu dekodiert. Wie bereits in der beiden vorherigen Abschnitten 
beschrieben fehlen Funktionen, die ein Broadcasting oder die 
effiziente Minimierung der Verlustleistung beeinhalten. 

1.3 Verbesserung durch die Erfindung, Aufgabe 

Die Erfindung umfafit ein kaskadierbares Rechenwerk, das flexibel 
in seiner Funktion und Vernetzung konf igurierbar ist. Es 
benotigt wahrend der Ausfuhrung des Algorithmus keine 
Befehlsdekodierung. Es ist im Betrieb umkonf igurierbar, ohne 
Einflufi auf die umgebenden Rechenwerke, Verarbeitungsmodule und 
Datenstrome zu haben. Die Menge der Konf igurationsdaten ist sehr 
klein, was sich gtinstig auf Platzbedarf und 

Konf igurationsgeschwindigkeit auswirkt. Urn groJie Datenmengen 
schnell und effizient zu verteilen wird Broadcasting ttber die 
internen Bussysteme unterstiitzt. Das Rechenwerk ist mit einer 
Stromsparfunktion ausgestattet, wodurch die Stromaufnahme 
komplett ausgeschaltet wird, ebenso existiert ein Taktteiler, 
der es ermoglicht das Rechenwerk mit einem geringeren Takt zu 
betrieben. Fiir Rttckmeldungen der internen Zustande an die 
externen Steuerungen stehen besondere Mechanismen zur Verfugung. 
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. 2. Beschreibung der Erfindung 

2.1 Ubersicht uber die Erfindung, Abstrakt 

Die Erfindung beschreibt den Aufbau einer Zelle im Sinne von DE 
44 16 881 Al oder bekannter FPGA Zellen. In diese Zelle 
integriert ist eine urn Sonderfunktionen erweiterte Arithmetisch- 
Logische-Einheit (EALU), die die Datenverarbeitung durchfUhrt. 
Die EALU wird Uber ein Funktionsregisterregister konf iguriert, 
dadurch sinkt die fUr die Konf iguration erforderliche Datenmenge 
erheblich. Die Zelle ist Uber ein Bussystem frei kaskadierbar, 
dabei ist die EALU vom Bussystem iiber Ein- und Ausgaberegister 
entkoppelt. Die Ausgaberegister sind auf einen Eingang der EALU 
zurUckgefUhrt um serielle Operationen zu ermoglichen. Die 
Aufschaltung auf den Bus tlbernimmt eine Bussteuereinheit, die 
den Bus entsprechend dem Busregister vernetzt. Dabei ist die 
Einheit so konzipiert, dafi das Verteilen von Daten an mehrere 
Empf anger (Broadcasting) moglich ist. Eine 

Synchronisationsschaltung steuert den Datenaustausch zwischen 
mehreren Zellen Uber das Bussystem. Die EALU, die 
Synchronisationsschaltung, die Bussteuereinheit und die Register 
sind so gestaltet, daB eine Zelle unabhangig von ihren 
Umgebungs zellen im Betrieb umkonf iguriert werden kann. Uber das 
Funktionsregister kann ein Stromsparmodus konfiguriert werden, 
der die Zelle abschaltet, ebenfalls konnen Taktteiler 
eingestellt werden, die die Arbeitsf requenz verringern. 

2.2 Detailbeschreibung der Erfindung 

Die Erfindung beschreibt den Aufbau einer Zelle (PAE=Processing 
Array Element) im Sinne von DE44 16 881 Al oder bekannter FPGA 
Zellen, dabei sind die PAEs zu einem Array (Processing Array = 
PA) kaskadierbar. Eine PAE ist aus einer Vielzahl von 
Funktionseinheiten aufgebaut: 

2.3 EALU 
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Das Rechenwerk besteht aus einer fest in Logik implementierten 
erweiterten Arithmetisch-Logischen-Einheit (EALU) . Eine EALU ist 
eine gewohnliche Arithmetisch-Logische-Einheit nach dem Stand 
der Technik (ALU) , die durch spezielle Funktionen, wie Zahler 
erweitert ist. Diese EALU ist in der Lage eine Vielzahl von 
arithmetischen und logischen Operationen durchzufuhren, ohne 
hier genau spezifiziert werden zu mtissen, da auf ALUs die dem 
Stand der Technik entsprechen zuriickgegrif f en werden kann. Die 
EALU hat direkten Zugriff auf ihre eigenen Ergebnisse, diese 
werden wir nachfolgend beschrieben als Operand zuruckgeftihrt . 
Dadurch sind Z&hler oder serielle Operationen, wie die serielle 
Multiplikation, Division oder Reihenentwicklungen, moglich. Die 
EALU liefert neben ihrem Ergebnis die Signale CarryOut-AlessB 
und AequalB-Odetect. CarryOut-AlessB gibt entweder bei 
arithmetischen Operationen das Carry an, oder bei Vergleichen 
mittels einer Subtraktion zweier Werte gibt der Obertrag, also 
CarryOut-AlessB, dafi A<B, bzw. B<A, abhangig vom negierten 
Operanden an. Das Signal ist das iibliche Carry generiert durch 
einen Volladdierer . AequalB-Odetect gibt an, dafi das Ergebnis im 
Ergebnisregister R-REGsft gleich 0 ist. Das Signal wird uber ein 
NOR aus dem Ergebnis generiert. Die Signale werden zur einfachen 
Auswertung von Zustanden verwendet und konnen an die PLU 
zuruckgeliefert werden. Weitere Statussignale sind je nach 
Anwendung ■ implementierbar . , 

Die Funktion der EALU wird in einem Funktionsregister (F- 
PLUREG) konfiguriert. 

2.3.1 O-REG 

Die Eingangsoperanden der EALU werden in zwei unabhangige 
Operandenregister (O-REG) gespeichert. Dadurch stehen sie 
unabhangig des Zustandes der Einheit, die die Daten liefert 
(Datensender) zur Verfiigung. Dies ist notwendig um eine 
Entkopplung vom Bus und eine freie Umkonf igurierbarkeit des PAs 
zu ermoglichen. Eines oder beide O-REG besitzen eine 
Schiebefunktion, die von der EALU fur ggf . jedes O-REG einzeln 



5 



WO 98/26356 



PCT/DE97/02949 



angesteuert wird. Die Schiebefunktion ermoglicht das Durchfuhren 
von seriellen Operationen wie serielles Multiplizieren oder 
Dividieren im EALU. O-REG mit Scheibef unktion werden als 0- 
REGsft bezeichnet* 

2.3.2 R-REGsft 

Das Ergebnis der EALU wird in einem Ergebnisregister gespeichert 
(R-REGsft) . Dadurch wird die zeitliche Unabhangigkeit von der 
oder den das Ergebnis empf angenden Einheiten (Datenempf anger) 
erreicht. Das R-REGsft besitzt eine Scheibef unktion, die von der 
EALU angesteuert wird, wodurch serielle Operationen ermoglicht 
werden. 

2.3.3 R20-MUX 

Die Ergebnisdaten, die in R-REGsft stehen, werden Uber einen 
Multiplexer (R20-MUX) zwischen einem der O-REG und der EALU als 
Operand eingeschleif t, urn eine Riickkopplung des Ergebnisses fur 
serielle Operationen, Zahler und ahnliche Funktionen zu 
gewahrleisten. Der Multiplexer wird durch das F-PLUREG 
eingestellt . 

2.2.4 Taktzyklen 

Es ist sinnvoll, jedoch nicht zwingend erforderlich, die 0- 
REG(sft) bei einer Taktflan)ce anzusteuern und die R-REGsft bei 
der darauf folgend negierten Taktflanke. Dadurch hat die EALU 
einen Halbtakt zur Ausftihrung ihrer Funktion zur Verftigung, der 
zweite Halbtakt steht fttr Signallauf zeiten und Multiplexer zur 
Verftigung. Dadurch wird es moglich in jedem Takt eine komplette 
Operation auszufiihren. 

2.2.5 StateMachine, SM-Unit 

Zur Ablauf steuerung in der EALU existiert eine SM-UNIT. Diese ■ 
steuert die O-REG und R-REGsft und deren Schiebefunktion, sowie 
R20-MUX. Dadurch wird erreicht, daii serielle Operationen, 
Schiebe- und Zahl funktionen einfach von der EALU durchgefuhrt 
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- werden kdnnen. Die StateMachine ist dabei nach dem Stand der 
Technik einfach zu implement ieren. 

2.2.6 Sync-UNIT 

Zur Synchronisation einer PAE innerhalb eines Arrays (PA) aus 
PAEs ist eine Synchronisationseinheit (Sync-UNIT) vorhanden. 
Diese wertet eine Reihe von Eingangssignalen, die ein Handshake- 
Protokoll ausfiihren, aus. 

rACK(h/l): Der Datenempfanger quittiert die empfangenen 

Daten. Dabei ist rACKh die Quittierung des hohen 
Ergebnisbytes (Bit 8 bis 15) und rACKl die des 
niederen Ergebnisbytes (Bit 0 bis 7) . Beide werden 
verUNDet (rACKh UND rACKl) und ergeben das Signal 
rACK. rACK ist nicht wahr, wahrend einer oder beide 
Datenempfanger mit der Verarbeitung ihrer Daten 
beschaftigt sind und wird wahr, wenn die Verarbeitung 
der Daten beider Datenempfanger abgeschlossen ist und 
das Ergebnis im R-REGsf t des jeweiligen 
Datenempf angers gespeichert ist. Die Signale rACK(h/l) 
werden im weiteren oftmals in ihrer verUNDeten Form 
als rACK (=rACKh & rACKl) betrachtet. 

oRDY(l/2): Der Datensender signalisiert seine Bereitschaft 

neue Daten zu senden. oRDY ist nicht wahr, wahrend der 
Datensender mit der Verarbeitung seiner Daten 
beschaftigt ist und wird wahr, wenn das Ergebnis des 
Datensenders, das der Operand der PAE ist, zur 
Verfugung steht. Dabei ist oRDYl das Freigabesignal 
des Datensenders des ersten Operanden und oRDY2 das 
des Zweiten. Beide werden verUNDet (oRDYl UND oRDY2) 
und ergeben das Signal oRDY. oRDY ist nur wahr, wenn 
beide Datensender bereit sind Daten zu versenden. Die 
Signale oRDY(l/2) werden im weiteren oftmals in ihrer 
verUNDeten Form als oRDY (=oRDYl & oRDY2) betrachtet. 
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Aus den Eingangssignalen und dem Zustand der Sync-UNIT, der 
zusammen mit der Ablauf steuerung der EALU den Gesamtzustand der 
PAE darstellt, werden Ausgangssignale generiert, die von den 
Sync-UNITs der Datensender und -empfanger ihrerseits als 
Eingangssignale betrachtet werden. Zur Ablauf steuerung der EALU 
werden deren Statusinformationen und das Register F-PLUREG 
verwendet . 

rRDY: Zeigt an, dafl die PAE ihre Datenverarbeitung beendet 

hat und ein Ergebnis im R-REGsf t zur Verfugung steht. 
rRDY wird als rRDYh und rRDYl an beide Datenempf anger 
ubertragen. Dabei handelt es sich jedoch urn dasselbe 
Signal ! 

oACK: Zeigt an, daJi die PAE ihre Operanden verarbeitet hat 

und neue Daten in den O-REG(sft) aufnehmen kann. oACK 
wird als oACKl und oACK2 an beide Datensender 
ubertragen, Dabei handelt es sich jedoch urn dasselbe 
Signal ! 

Die RDY-Signale behalten ihren Pegel bis zum Eingang der 
Quittierung durch ACK bei. Dies ist erforderlich wenn der 
Datenempfanger wahrend der Bereitstellung der Daten 
umkonfiguriert wird. Steht BDY bis zur Quittierung durch ACK an, 
so erkennt der Datenempfanger nach der Umkonf igurierung, dafl 
Daten bereitstehen und nimmt sie an. 

Die Verkntipfung der Signale tlber mehrere PAEs stellt sich wie 
folgt dar: 



Datensender 




PAE 




Datenempfanger 


rRDY 


— > 


oRDY rRDY 


-> 


oRDY 


rACK 


<- 


OACK rACK 


<- 


oACK 
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- Das bedeutet z.B. das Ausgangssignal rRDY des Datensenders 
stellt das Eingangssignal oRDYl oder oRDY2 der PAE dar. Das 
Ausgangssignal rRDY der PAE stellt das Eingangssignal oRDY des 
Datenempf angers dar. 



Die Sync-UNIT besitzt folgende Ablaufarten: 



Modus 


Beschreibung 


Bemerkung 


Warten OP 


Die PAE wartet auf 
Operanden 


Nur wenn keine 
mehrzyklische 
Operation ablauft 


Zyklus 1 


Eine einzyklische 
Operation wird 
durchgefiihrt 


Operanden werden 
quittiert 


Zyklus n 


Ein Zyklus einer 
mehrzyklischen 
Operation wird 
durchgefiihrt 




Zyklus Z 


Der letzte Zyklus 
einer mehrzyklischen 
Operation wird 
durchgefiihrt 


Operanden werden 
quittiert 


Warten ERG 


Die PAE wartet auf 
die Quittierung des 
Ergebnisses 


Nur wenn 
vorhergehendes 
Ergebnis exisistiert 


Stop 


Ausfiihrung nach 
Beendigung des 
laufenden Zyklusses 
anhalten, dann 
ReConfig quittieren, 
wenn auch Ergebnis 
quittert wurde 





Die Sync-UNIT stellt einen besonderen Modus zur Verfiigung, der 
das Taktsignal nur freigibt, wenn Operanden zur Verfiigung 
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stehen. Dieser Modus ist vor allem dann sinnvoll, wenn die 
Datensender die Daten nicht in jedem Prozessortakt liefern, 
sondern nur jeden n. Takt. Dabei entspricht der Takt einer 
Periode des Normaltaktes und wird Uber rACK oder oRDY(l/2) 
freigegeben. Die Freigabe wird als OneShot bezeichnet. Der Modus 
wird als OneShot-MODE bezeichnet. Dabei wird der Takt ilber ein 
UND-Gatter mit einem der Freigabesignale verUNDet. Der Modus und 
die Signalauswahl findet Uber das F-PLUREG statt. Das 
Freigabesignal, generiert Uber rACK oder oRDY(l/2), kann von der 
SM-UNIT verlangert werden. Dies ist erforderlich, damit 
Operationen, die mehr als einen Takt benStigen im OneShot-MODE 
durchgefUhrt werden konnen. Um dies zu ermoglichen, wird eine 
entsprechende Signalleitung der SM-UNIT mit dem Freigabesignal 
verODERt • 

Wird der Registereintrag STOP im F-PLUREG gesetzt, so fuhrt die 
Sync-UNIT die laufende Funktion zu Ende. Danach werden keine 
weiteren Operanden mehr angenommen und quittiert. Sobald rACK 
anzeigt, daft das Ergebnis vom Datenempf anger angenommen wurde, 
wird die Umkonf igurierungsbereitschaf t der PLU durch das Signal 
ReConfig angezeigt. Das Signal wird generiert, indem rACK das 
Stop des F-PLUREG in ein D-FlipFlop speichert. ReConfig kann 
durch einen lesenden Zugriff der PLU auf F-PLUREG an der 
Bitposition von Stop abgefr^gt werden. 

Ebenfalls kann die Sync-UNIT dazu verwendet werden 
Fehlerzustande oder weitere Statussignale zu generieren und 
auszuwerten. 

2.2.7 BM-UNIT 

Zum Aufschalten der Operanden und des Ergebnisses auf die 
externen Bussysteme existiert eine Busmultiplexeinheit (BM- 
UNIT) . Diese besteht aus 2 Multiplexern und 2 Tore, wobei die 2 
Multiplexer fUr die Operanden (O-MUX) und 2 Tore fUr das 
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Ergebnis (R-GATE) existieren, dabei wird jeweils ein Schalter 
fttr das hoherwertige und niederwertige Ergebnis verwendet. Die 
Multiplexer und Schalter werden iiber das Multiplexerregister 
({M-PLUREG}) gesteuert. Die Sync-UNIT-Signale werden Uber die 
Schalter auf den Bus gesteuert. Dabei ist die 
Zusammengehorigkeit der Multiplexer/Schalter und Signale wie 

f olgt : 

O-MUXl: oRDYl, oACK 
0-MUX2: oRDY2 , oACK 
RH-GATE: rRDY, rACKh 
RL-GATE: rRDY, rACKl 

Das R-GATE kann Uber das M-PLUREG in einen Zustand gebracht 
werden, in dem es kein Bussystem treibt. 



Die Tabelle gibt eine Beschreibung der Signale, sowie deren 
jeweiliger Inter face-Struktur: 



Signal 


ORDY 


OACK 


rRDY 


rACK 


D7. .0 


zeigt an 


Operanden 
bereit 


Operanden 
Quittiert 


Ergebnis 
bereit 


Ergebnis 
quittiert 


Daten 


Typ 


Eingang 


Open- 
Kollektor 


Treiber 


Eingang 


Bi- 
direk- 
t i o n a I 



Es ist moglich mehrere Datenempfanger von einem Datensender aus 
anzusprechen (Broadcasting) . Hierzu schalten sich mehrere 
Datenempfanger auf denselben Bus. Um eine Quittierung der Daten 
zu gewahrleisten ist die Treiberstufe der Quittierungsleitung 
oACK als Offener-Kollektor-Treiber gestaltet. Dabei arbeitet der 
Bus als wired-AND, d.h. erst wenn alle Datenempfanger quitteren 
entsteht der fur die Quittierung erforderliche H-Pegel. Dies 
wird dadurch erreicht, daB jeder Datenempfanger, der NICHT 
quittiert den Bus tlber einen Open-Kollektor-Transistor auf einen 
L-Pegel zieht. Datenempfanger die quittierern, steuern den Open- 
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Kollektor-Transistor nicht an und belasten somit den Bus nicht. 
Wenn alle Datenempf anger quittieren wird der Bus nicht mehr 
belastet und nimmt liber einen Pull-Up-Widerstand H-Pegel an. 

2.2.8 StateBack-UNIT 

Die PAE ist in der Lage Ruckmeldungen iiber ihren Betriebszustand 
an ihre Ladelogik, im folgenden PLU genannt, zu lief em (vgl. DE 
44 16 881 Al) . Die Ladelogik konfiguriert das PA und benStigt, 
um sinnvolle Umkonf igurationen vornehmen zu konnen, 
Informationen tlber den Status der einzelnen PAEs. Dies geschieht 
uber die StateBack-UNIT. Diese ilbertrSgt je nach Eintrag im F- 
PLUREG entweder die unteren 3-Bit des Ergebnisses aus dem R- 

REGsft um berechnete Werte an die PLU zu liefern oder 

die Signale CarryOut-AlessB und AequalB-Odetect auf einen 3-Bit 
Statusbus. Um das Aufschalten der Signale von mehreren PAEs aus 
zu ermoglichen wird ein einfaches wired-OR Verfahren iiber Open- 
Kollektor-Treibern verwendet. Damit die Umkonf igurierung der PAE 
erst beginnt, wenn der Empf anger die Daten quittiert hat, kann 
zwischen den Signalen und den Open-Kollektor-Treibern eine 
Latch-Stufe eingeschleif t werden, die die Signale erst nach 
Eingang des rACK freigibt. Der Statusbus wird von der PLU 
tiberwacht. Diese reagiert in ihrem Programmf lufi und ihrer 
Umkonf iguration auf den vom,Bus gelieferten Status. 

2.2.9 Power-UNIT 

Die PAE besitzt einen Stromsparmodus ( {Sleep-MODE} ) , der ebenso 
wie die Funktion der EALU im F-PLUREG eingestellt wird. Hierftir 
existiert ein Bit, das, wenn es gesetzt ist, den Sleep-MODE 
einschaltet. Hierzu kann entweder die Taktleitung der PAE auf 
konstant logisch 0 oder 1 gesetzt werden, oder uber einen 
Transistor die Spannung der PAE abgeschaltet werden. Das F- 
PLUREG steht innerhalb der PAE immer unter Spannung und ist 
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- nicht abschaltbar. Ftir die jeweils ausgefiihrte Funktion 

unbenutzte Bereiche (Gatter) der PAE werden durch Auswertung des 
F-PLUREG abgeschaltet . Dies geschieht tiber einen Transistor, der 
die Bereiche von der Spannungsversorgung trennt. Um unerwtinschte 
Storeinf lUsse zu verhindern sind die Ausgange der Bereiche tiber 
Pull-Up/Pull-Down-Widerstande def iniert . 

Zusatzlich kann innerhalb des OneShot-MODE, der von der Sync- 
UNIT gesteuert wird, der PowerSave-MODE verwendet werden. Dabei 
werden samtliche Teile der PAE, mit Ausnahme von F-, M-PLUREG 
und Sync-UNIT von der Versorgungsspannung getrennt. Erst wenn 
die Sync-UNIT einen OneShot feststellt, werden alle benOtigten 
PAE-Teile iiber die Power-UNIT zugeschaltet . Die Sync-UNIT 
verzogert das Taktsignal so lange, bis alle neu zugeschalteten 
Teile arbeitsfahig sind. 



2.2.10 Register 

Die Register F-PLUREG und M-PLUREG sind mit dem PLU-Bus 
verbunden. Die Adresse der von der PLU gesendeten Datenpakete 
werden in einem Vergleicher dekodiert. 1st die Adresse der PAE 
erkannt, so werden die Daten in die Register gespeichert. Der 
PLU-Bus ist wie folgt gestaltet: 
AX7..0: X-Adresse der X/Y-Matrix 
AY7..0: "Y-Adresse der X/Y-Matrix 

RS: Register Select, logisch 0 wahlt F-PLUREG, logisch 1 

wahlt M-PLUREG aus. 

AEN: Adress Enable, der Bus enthait eine giiltige Adresse. 

Die Adressen mtissen dekodiert werden, solange AEN 
logisch 0 ist. AEN ist wahrend des gesamten 
Buszugriffes, also auch wahrend der Dateniibertragung 
logisch 0. } 

D23. .00: Daten 

DEN: Data Enable, der Bus enthalt gUltige Daten. Die Daten 

mtissen bei steigender Flanke des Signals DEN in das 
Register iibertragen werden} 
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-' OEN: Output Enable, die PLU liest gultige Daten aus den 

PLUREGs . } 



2.2.11 Der Aufbau des F-PLUREG: 



1. Der Registeraufbau beim Schreibzugrif f 



Fll 


F10. .9 


F8 


F8 


F5 


F4. .0 


Stop 


StateBack 


Sleep 


OneShot 


PowerSave 


EALU 
function 



Die Funktionen der einzelnen Bits: 



Funktion 


Zustand 


Wirkung 


Stop 


0 


Normale Funktion 




1 


Funktionen nach laufendem Zyklus 
anhalten, keine Quittierung der 
Operanden 


StateBack 


00 


keine Riickmeldung, Bus offen 




01 


D2 . . 0 auf Bus 




10 


CarryOut-AlessB, AequalB-Odetect 
auf Bus 




11 


Illegal 


Sleep 


0 


keine Funktion, spannungslos 




1 


normale Funktion, Spannung 


OneShot 


00 


normale Funktion 




01 


OneShot auf oRDYl 




10 


OneShot auf oRDY2 




11 


OneShot auf (rACKh & rACKl) 


PowerSave 


0 


kein PowerSave 




1 


Stromsparmodus in Verbindung mit 
OneShot 
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EALU 
function 


00000 


keine Operation (NOP) 




00001 








Funk t ion gemSfi Ausftihrung der EALU 




11111 





Der Reset-Zustand 1st 0 in alien Bits. 



2. Der Registeraufbau beim Lesezugriff 



Fll 

ReConf ig 



Die Fimktionen der einzelnen Bits: 



Funktion 


Zustand 


Wirkung 


ReConf ig 


0 


Keine Umkonf igurierung moglich 




1 


Umkonf igurierung moglich 



Der Reset-Zustand ist 0 in alien Bits. 



Der Aufbau des M-PLUREG: 



M23. .18 


M17..12 


Mil. .06 


M05. .00 


Ergebnis 
hoherwertig 


Ergebnis 
niederwertig 


Operand 1 


Operand 0 



Die Werte M(n+5)..n = 000000, ne{0, 6, 12, 18} bedeuten, dali die 
Multiplexer/Schalter of fen sind und keinen Buskontakt besitzen. 
Es kann sinnvoll sein, das M-PLUREG tiber das Signal ReConfig zu 
sperren, d.h. sobald ReConfig aktiviert wird, schaltet sich die 
PAE von alien Bussystemen ab. 
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* Der Reset-Zustand ist 0 in alien Bits. 
3. Zusammenfassung 

Durch die Reduzierung der Konf igurationsdaten auf das Register 
F-PLUREG kann die Funktion des PAE einfacher und schneller 
konfiguriert und umkonf iguriert werden als in bekannten 
Technologien, ins besondere der FPGA-Technologie . Die Vernetzung 
des Rechenwerkes wird im M-PLUREG angegeben, wahrend in den 
herkommlichen Technologien eine Vielzahl einzelner, nicht 
zusammenh&ngender Konf igurationsbits besetzt werden mussen. 
Durch die klare Struktur der Register wird eine 
(Um) Konf iguration vereinfacht. 

Der Platzbedarf des PAE ist durch die direkte Ausgestaltung als 
Rechenwerk kleiner als in herkommlichen Technologien, in denen 
Rechenwerke durch eine Vielzahl von Logikzellen implement iert 
wurden. Gleichzeitig sind die Durchlaufverzogerungen geringen 
und die erzielbaren Taktf requenzen entsprechend hoher. 
Eine Broadcasting-Funktion ist durch die Ausgestaltung der BM- 
UNIT gewahrleistet, die Quittierung erfolgt automatisch. Durch 
die ein- und ausgangsseitigen Register (O-REG, R-REG) ist ein 
zeitlich weitgehend unabhangiger Datentransf er gewahrleistet. 
Die Konf iguration und Umkonf iguration wird durch die Entkopplung 
jeder PAE' vom Gesamtsystem iiber die Register O-REG und R- 
REGerheblich vereinfacht, da die einzelnen PAEs weitgehend 
voneinander unabhangig sind. Die RUckmeldungen an die PLU, sowie 
das Zusammenspiel von STOP und ReConfig ermoglichen die 
effiziente Steuerung der (Um) Konf igurationen. 

Es sind Strorasparfunktionen implementiert, die teilweise 

automatisch (OneShot-MODE) zu einer Reduzierung des 

Leistungsverbrauches fiihren. 

Die PAE-Struktur kann zur Erhohung der Effizienz von FPGAs in 
deren Architektur implementiert werden. Dadurch sind 
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arithmetische Operationen erheblich leistungf ahiger 
realisierbar . 



4. Kurzbeschreibung der Diagramme 

Figur 1 Anordnung mehrerer PAEs zu einem PA mit PLU. Ohne 
Verbindung zu Ein~/Ausgabesystemenoder Speicher. 
Aufbau einer PAE. 
Aufbau von F-PLUREG und M-PLUREG. 
Aufbau eines O-REG. 

Aufbau eines O-REGsft mit rechtsschiebe-Funktion. 
Aufbau eines R-REGsf t mit rechts/links l-2bit Barrel- 
Shifter. 

Aufbau des R20-MUX, sowie Implementierung eines MUX in 
Trans f er-Gate-Technik. 

Taktsynchronisation, Verzogerungen und synchron Signale 
Funktionsweise der Sync-UNIT. Beschreibung. 
Aufbau der Power-UNIT 
Aufbau der Sync-UNIT 
Figur 12 Aufbau der BM-UNIT 

Figur 13 Aufbau eines O-MUX, begrenzt auf 4 Bussysteme 
Figur 14 Aufbau eines R-GATE, begrenzt auf 4 Bussysteme 
Figur 15 Aufbau der StateBack-UNIT 

Figur 16 -.-Funktionsprinzip des OneShot- und OneShot/PowerSave- 
MODE 

Figur 17 Implementierungsbeispiel einer PAE 

Figur 18 Aufbau einer PAE, wobei die Verbindung der einzelnen 

Funktionen liber ein Bussystem erfolgt 
Figur 19 Funktionsweise der Conf ig~State-Machine 
Figur 20 Funktionsweise der Loop-State-Machine 

Figur 21 Zyklische Verarbeitung der Konf igurationsregister Daten 



Figur 2 
Figur 3 
Figur 4 
Figur 5 
Figur 6 

Figur 7 

Figur 8 
Figur 9 
Figur 10 
Figur 11 



4.1 Detailbeschreibung der Diagramme 
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Figur 1 stellt einen vereinf achten Prozessor gemali DE 44 16 881 
Al dar. Zudem ist die PLU (0101) und deren Bussystem (0102) 
angezeigt. Die PAEs (0103) sind als Array eingetragen, das 
chipinterne Bussystem (0104) ist schematised dargestellt. 

Figur 2 zeigt den schematisierten Aufbau einer PAE. Das 
chipinterne Bussystem (0201) wird an die BM-UNIT (0202) geftihrt, 
welche die durch M-REG (0203) ausgewahlten Busse an das 0- 
REGlsft (0204) als Operand 1 und das O-REG (0205) als Operand 2 
weiterschaltet . In den Datenpfad von Operand 2 wird uber den 
R20-MUX (0206) das im Ergebnisregister R-REGsft (0207) stehende 
Ergebnis wahlweise eingeschleif t . Die Daten aus O-REGsft (0204) 
und R20-MUX (0206) werden im ELAU (0208) verarbeitet. Uber die 
StateBack-UNIT (0209) finden Rtickmeldungen an die PLU statt. Der 
PLU-Bus (0210) hat Verbindung zu den Regis tern F-PLUREG (0211) 
und M-PLUREG (0212), sowie der StateBack-UNIT (0209). t)ber ihn 
wird die PAE konfiguriert und uberwacht. Das F-PLUREG enthalt 
alle funktionellen Konf igurationsdaten, das M-PLUREG enthalt die 
Vernetzungsinformation der PAE. Die Sync-UNIT (0212) steuert das 
Zusammenspiel des Datenaustausches zwischen den Datensendern, 
den DatenempfSngern und der Verarbeitungs-PAE . Die SM-UNIT 
(0213) steuert den gesamten internen Ablauf der PAE. Die Power- 
UNIT (0214) regelt die Stromversorgung und dient der Reduzierung 
des Stromverbrauches. 

In Figur 3 wird die Funktionsweise der Register M-PLUREG und F- 
PLUREG verdeutlicht. Die Adressen AX und AY des PLU-Bus (0308) 
werden in einem Vergleicher (0301) mit der Adresse der PAE 
verglichen, sofern AEN (Adress Enable) einen gilltigen 
Bustransfer anzeigt. Dabei besitzt jede PAE eine eindeutige 
Adresse, die sich aus ihrer Spalte und Zeile innerhalb einer PA 
zusammensetzt . Zeigt DEN (DataEnable) die Datenubertragung an, 
so wird uber RS (RegisterSelect) entweder M-PLUREG (0302) oder F- 
PLUREG (0303) ausgewahlt. Bei der steigenden Flanke von DEN 
werden die Daten im betreffenden Register gespeichert. Die 
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-" Register sind als D-FlipFlop (0304) implementiert . Zur 

Verdeutli chung des Ablaufes dient das Timingdiagramm 0305. Zum. 
lesenden Zugriff auf das F-PLUREG wird lediglich uber das Tor 
(0306) das Signal ReConfig von der Sync-UNIT an den PLU-Bus 
gegeben. Die Freigabe geschieht Uber das Ergebnis des 
Vergleichers (0301) UND dem Signal OEN. 

Figur 4a zeigt das Blockdiagramm des O-REG. In Figur 4b ist der 
Aufbau des O-REG aus D-FlipFlops ersichtlich. Das Timingdiagramm 
ist in Figur 4c dargestellt. Der Takt wird von der SYNC-SM 
generiert . 

Figur 5a zeigt das Blockdiagramm des O-REGsft . In Figur 5b ist 
der Aufbau des O-REGsft aus D-FlipFlops (0501) ersichtlich. Die 
UND-Gatter (0502) und das OR-Gatter (0503) bilden Uber den 
Inverter (0504) einen durch Mode gesteuerten Multiplexer (0506), 
der entweder die Eingangsdaten auf die D-FlipFlop (0501) 
schaltet, oder die Ausgangsdaten der D-FlipFlop urn ein Bit 
verschoben an deren Eingang leitet. Das UND-Gatter (0505) ist 
nicht notwendig, da ein Eingang permanent auf logisch 0 liegt. 
Es dient nur der Anschaulichkeit . In Figur 5c ist das 
Timingdiagramm in Abhangigkeit von dem Signal Mode angegeben. 
Der Takt wird von der SYNC-SM generiert. 

Figur 6a zeigt den Blockaufbau des R-REGsft vor dem Register 
(0601) liegt ein Multiplexer (0602), der entweder die 
Eingangsdaten auf das Register (0601) schaltet, oder die 
Ausgangsdaten des Registers (0601) verschoben an dessen Eingang 
leitet. Der von der SYNC-SM generierte Takt wird urn einen 
Halbtakt verschoben an das Register gefUhrt. In Figur 6b ist das 
Blockdiagramm auf Gatterebene dargestellt. Uber einen Dekoder 
(0603) schalten ModeO-2 einen aus UND-Gattern mit 
nachgeschaltetem ODER-Gatter bestehenden Multiplexer (0606) . 
Dabei sind die gestrichelt eingezeichneten Gatter (0605 und 
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- weitere) nur der Verdeutlichung wegen eingezeichnet . Sie sind 
funktionslos, da ein Eingang standig auf L liegt. Der 
Multiplexer schaltet im Zustand ModeO-2 = 010 das Eingangssignal 
auf die Register (0607) . In den Zustanden ModeO-2 = 000 bis 
ModeO-2 = 001 werden die Ausgangswerte der Register (0607) nach 
links, in den Zustanden ModeO-2 = Oil bis ModeO-2 = 100 rechts, 
urn ein bzw. zwei Bit verschoben, an die Eingange der Register 
gefUhrt. Die Scheibefunktion wird in Abhangigkeit vom Zustand 
ModeO-2 im Timingdiagramm Figur 6c verdeutlicht . 

Figur 7a zeigt den Aufbau des Multiplexers R20-MUX, der in 
Abhangigkeit von Mode die Operanden oder das Ergebnis an die 
EALU weiterleitet. Dabei ist Figur 7a als herkommlicher 
Multiplexer aufgebaut, wahrend in Figur 7b die platz- und 
leistungssparende Variante durch die Verwendung von CMOS 
Transfer-Gates (0701) aufgezeigt wird. Alle in dieser Schrift 
beschriebenen beschriebenen Multiplexer konnen mittels Transfer- 
Gates aufgebaut werden. 

Ein Tor kann Equivalent zum Multiplexer aus Transfer-Gates 
aufgebaut werden. Dabei ist jedoch die Richtung des 
Datenaustausches genau umgekehrt! 

* * *• * 

Figur 8 zeigt das Verhaltnis des PAE-internen Taktes CLK zu den 
stattfindenden Aktivitaten. Bei des steigenden Flanke (0801) 
werden die Operanden in die O-REG gespeichert. Wahrend des H- 
Pegels (0802) verarbeitet die PAE die Daten (APAE = 
Verarbeitungsphase) . Das umfafit den Datenverkehr zwischen den O- 
REG und dem R-REG. Bei der fallenden Flanke (0803) wird das 
Egebnis im R-REG gespeichert. Der L-Pegel (0804) wird filr die 
Verteilung der im Bussystem, eingeschlossen der BM-UNIT genutzt 
ANetwork = Busphase) . Der zeitliche Ablauf der von der SYNC-SM 
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generierten Signale (oRDY und oACK, rRDY und rACK) ist in das 
Zeitdiagramin eingetragen. 

Das Ablaufdiagramm der Sync-UNIT ist in Figur 9 dargestellt. Die 
Zustandsmaschine kennt zwei feste Zustande DATEN (0901) und 
ERGEBNIS (0902). DATEN wird auf die steigende Flanke 
synchronisiert, ERGEBNIS auf die Fallende. Dabei wird jeweils 
der Zustand der Eingangsparameter ausgewertet und je nach 
Ergebnis in den Zweig ja (0903/0904) oder nein (0905/0906) 
gesprungen. Sind in DATEN die Operanden nicht bereit, wird nein 
angesprungen. In den nachsten Schritten wird keine Operation 
ausgeftihrt, bis die Maschine nach DATEN zuruckspringt und erneut 
auswertet. Stehen nun Operanden, angezeigt durch oRDY, bereit, 
werden die Operanden im O-REG (0907) gespeichert. Die Operanden 
werden verarbeitet (0908) und gleichzeitig wird ausgewertet 

(0909), ob es sich beei mehrzyklischen Operationen (serielle 
Operationen, die mehr als einen Taktzyklus benotigen) , um den 
letzte Zyklus handelt, oder ob eine einzyklische Operation 
ablauft. In diesen Fallen werden die Operanden durch oACK 
quittiert (0910) . Mit der fallenden Flanke wird ERGEBNIS 
synchronisiert . Dabei wird iiberprtift ob das Flag „Ergebnis 
vorhanden" gesetzt ist (0911) . Dieses Flag wird immer gesetzt, 
wenn ein fextiges Ergebnis durch rRDY signalisiert wird (0912) . 
In zwei Fallen wird in den JA- Zweig (0904) gesprungen: 

1. Es ist kein vorhergehendes Ergebnis vorhanden (Flag „Ergebnis 
vorhanden" unwahr) . 

2. Es ist ein vorhergehendes Ergebnis vorhanden (Flag „Ergebnis 
vorhanden" wahr) und dieses ist mit rACK quittiert. In diesem 
Fall (und nur in diesem Fall ( ! ) ) setzt 0902 das Ergebnis zurtick 
(0913) . 

Ansonsten wird in den NEIN-Zweig (0906) gesprungen und keine 
Operation ausgeftihrt, bis die Zustandsmaschine nach ERGEBNIS 
(0902) zuruckkehrt. Im JA- Zweig (0904) wird das Ergebnis in das 
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- Ausgangsregister R-REGsft gespeichert (0914). Danach wird 
ausgewertet ob es sich urn den letzten Zyklus einer 
mehrzyklischen Operation handelt (0915) (vgl. 0909) oder ob eine 
einzyklische Operation abiauft , wenn ja, wird das Vorhandensein 
des Ergebnisses durch rRDY signalisiert (0916) . Die 
Zustandsmaschine springt nach DATEN (0901) zuriick. Die Erkennung 

ob es sich urn den letzten Zyklus einer Operation oder um 

eine einzyklische operation handelt kann liber das Signal 

FINISH (0916) von der SM-UNIT abgefragt werden. Dieses ist 

aktiv, wenn der letzte oder einzige Zyklus stattfindet. 

Der SM-UNIT wird der Zustand der SYNC-UNIT liber RUN (0917) 
signallisiert . RUN ist im Falle, dafi eine Operation stattfindet 
aktiv andernfalls inaktiv. Der Mechanismus des STOP-Eintrages im 
F-PLUREG und des daraus generierten ReConfig ist in Fig. 9 nicht 
dargestellt, da der Ablauf trivial ist und aus der Beschreibung 
der SYNC-UNIT hervorgeht. 

Figur 10 zeigt den prinzipiellen Aufbau der Power-UNIT. Das 
Signal Sleep wird von F-PLUREG auf einen Transistor oder eine 
Transistorstufe (1001) geleitet. Diese steuert die 
Spannungsversorgung fur alle abschaltbaren Zellfunktionen. Die 
Sync-UNIT liefert das OneShotPowerSave-Signal (vgl. Figur 16), 
tiber welches die Spannungsversorgung der restlichen 
Zellfunktionen durch einen Transistor oder eine Transistorstufe 

(1002) freigegeben wird, Abhangig von den tatsachlich 
verwendeten Funktionen in der Zelle, schalten die Transitoren 
oder Transistorstuf en (1003) die nicht benotigten Funktionen ab 

(PowerDown) . Verstandlich ist, dafi fur ordentliche 
Spannungsversorgung und EMV-Verhalten weitere entsprechende 
Vorkehrungen, wie Kondensatoren etc., getroffen werden miissen. 

Figur 11 zeigt die Implement ierung der Maschine aus Figur 9 in 
das Konzept, ttber die BM-UNIT (1101) werden die Signale 
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- oRDY(l/2) und rACK (vereinfacht dargestellt : tatsachlich 

existiert rACKh und rACKl , rACK « rACKl & rACKh) zu den CCLK- . 
gesteuerten Latches (1102) geschaltet. Dabei sind die Latch so 
geschaltet, dafi sie in der L-Phase (Busphase) von CCLK 
transparent sind und in der H-Phase (Verarbeitungsphase) den 
Zustand halten. Die Ausgange der Latch stellen die Signale ftir 
die Sync-StateMachine (1103) zur VerfUgung. rRDY (vereinfacht 
dargestellt: tatsachlich existiert rRDYh und rRDYl, diese sind 
vollkommen gleich, werden jedoch an verschiedene Empf anger 
geleitet) von 1103 wird uber Tor auf den Bus geschaltet. Die 
Signale oACK(l/2) von 1103 werden in der BM-UNIT (1101) negiert 
und an die wiederum invertierenden Open-Kollektor-Bustreiber 
(1104) geliefert. Der Bus wird Uber Widerstande (1105) auf H 
gezogen. Die BM-UNIT ist dabei geschaltet, dafi folgende Falle 
eintreten: 

1. Wird der entsprechende Bus von der BM-UNIT nicht angesteuert, 
liegt an der Basis der Transistoren (1104) L an. Dadurch 
belasten sie den Bus nicht. 

2. Wird der entsprechende Bus von der BM-UNIT angesteuert, und 
das Signal nicht quittiert, liegt an der Basis der Transistoren 
(1104) H an. Das bedeutet, daB der Bus auf L gezogen wird. Wird 
ein Ergebnis per Broadcasting an mehrere Datenempf anger 
verteilt, so Ziehen alle PAEs, die die Ergebnisdaten noch nicht 
quittiert haben und Warte-Zyklen benotigen den Bus auf L. 

3. Wird der entsprechende Bus von der BM-UNIT angesteuert, und 
das Signal quittiert, liegt an der Basis der Transistoren (1104) 
L an. Das bedeutet, dafi der Bus nicht belastet wird. Wird ein 
Ergebnis per Broadcasting an mehrere Datenempf anger verteilt, so 
belasten alle PAEs, die die Ergebnisdaten quittiert haben und 
keine Warte-Zyklen benotigen den Bus nicht. 

Da der Bus in seinem Grundzustand den H-Pegel, also die 
Quittierung, einnimmt, tibersteuert die Nichtquittierung gemafi 
Fall 2 die Quittierung, in dem sie den Bus auf L zieht. Dabei 
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- geht der Bus erst dann. in den H-Pegel, also in den 

Quittierungszustand, wenn alle PAEs quittieren. Es ist somit 
eine Wired-AND-Schaltung realisiert. Die Sync-StateMachine 
stellt das Signal RUN (1107) der SM-UNIT (1106) zur Verfiigung. 
Diese lauft aufgrund von RUN an. Befindet sich die SM-UNIT im 

letzten oder einzigen ZYklus einer Verarbeitung, so 

signalisiert sie dies tiber FINISH (1108) an die Sync- 
StateMachine. FINISH wird in den Auswerteeinheiten zur Erkennung 
des letzten Zyklusses (0907, 0915) ausgewertet. Die SM-UNIT 
lauft synchron zum PAE-internen Takt CLK. 

Figur 12 zeigt den Aufbau der BM-UNIT. Abhangig von den 
Eintragen in das M-PLUREG schalten die Multiplexer (1201, 1202) 
die Operanden vom internen Bus (1203) zu den O-REG. Ebenfalls 
schalten die Tore (1204, 1205) die untere und obere Halfte des 
Ergebnisses auf den Bus. Der Multiplexer 1206 schaltet die 
oRDY(l/2) gemafi der Stellung von 1201 und 1202 und rACK gemaii 
der Stellung von 1204 und 1205 vom Bus in die PAE. Dabei werden 
die rACK beider Da tenempf anger miteinander verUNDet. Existiert 
nur ein Datenempf anger, so ist der Multiplexer so geschaltet, 
dafl er statt des fehlenden rACK eine logische 1 zurtickgibt. 1207 
beinhaltet ein Gate zum Auf schalten der Signale oACK(l/2) und 
rRDY auf den Bus. Dabei werden die Signale oACK(l/2) zunachst 
invertiert und dann tiber Open-Kollektor-Treiber (1104) auf den 
Bus geschaltet. 

Figur 13 verdeutlicht den Aufbau eines O-MUX. Dabei existiert 
ein 3:5 Dekoder (1301) zum Auswerten der Mode2..0 Signale aus 
dem M-PLUREG. Der Multiplexer ist tiber UND-Gatter (1302) mit 
nachgeschaltetem ODER-Gatter (1303) aufgebaut. Das 
Auswertesignal von Mode2..0 = 000 des Dekoders (1301) ist dabei 
direkt auf die ODER-Gatter geschaltet (1304) . Das bewirkt, dafi 
in offenem Zustand, d.h. keine Verbindung zu einem Bussystem, 
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- immer logisch 1 zuriickgelief ert wird. (Vgl. mit Figur 12 rACK) . 
Zur Vereinfachung ist nur eine reduzierte Busgr6fie dargestellt.. 

In Figur 14 ist der Aufbau eines R-GATE dargestellt. Dabei 
existiert ein 3:4 Dekoder (1401) zum Auswerten der Mode2..0 
Signale aus dem M-PLUREG. Das Auswertesignal von Mode2..0 = 000 
des Dekoders wird nicht verwendet. Dadurch wird keine 
Busverbindung bei dieser Bit-Kombination hergestellt. Die Gates 
(1402) sind entweder durch UND-Gatter oder Transmisson-Gates 
(vgl. 0701) aufgebaut. Dabei ist eine Verstarkerstuf e zum 
Treiben der Buslast vor- oder nachgeschaltet . Zur Vereinfachung 
ist nur eine reduzierte BusgroJJe dargestellt. 

Die StateBack-UNIT ist in Figur 15 dargestellt. Gemafi der 
Einstellung im M-PLUREG schaltet ein Multiplexer (1501) entweder 
die Signale CarryOut-AlessB, AequalB-Odetect von der EALU oder 
die Ausgange des R-REG R-REGD2..0 durch. Die Signale gelangen an 
eine Open-Kollektor-Transistor-Stuf e (1502) und werden auf den 
PLU-Bus geschaltet. Dabei benotigt der PLU-Bus externe, nahe der 
PLU positionierte Pull-Up-Widerstande (1503). Das Latch 1504 ist 
optional. Wird es in die Ausgangssignale von 1501 eingeschleif t, 
werden diese erst auf den Bus (1503) geschaltet, nachdem der 
Datenempf anger die Daten tiber rACK quittiert hat. Dadurch wird 
bewirkt, d'afi die Bereitschaft zur Umkonf igurierung iiber die 
Statussignale erst angezeigt wird, wenn die Daten auch 
angenommen wurden. Normalerweise wird dies durch das 
Zusammenspiel von STOP und ReConfig in der Sync-UNIT geregelt; 
daher ist das Latch optional. Das rACK wird dabei als Latch-Takt 
verwendet. Dabei ist das Latch bei rACK=l transparent und 
speichert bei rACK=0. 

Figur 16 verdeutlicht die Funktionsweise des OneShot-MODE . Uber 
einen Multiplexer (1601) schalten die Signale 

1. Vcc 

2. oRDYl 
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- 3. ORDY2 

4. (oRDYl & rACK) 

abhangig von der Einstellung im F-PLUREG den Zell-Takt frei. 
Dabei bewirkt die Freischaltung Uber Vcc, daii der Takt immer 
lauft (siehe Timing-Diagramm „Normaler Betrieb") . 

In den 3 Ubrigen Modi lauft der Takt erst an, wenn die Signale, 
oder Signalkombinationen den Takt freigeben. Die Freigabe wird 
durch ein Latch (1602) auf den Takt CCLK synchronisiert, damit 
die Phase nicht vorzeitig abbricht, wenn das Freigabesignal zu 
kurz ist. Dabei ist das Latch in der L-Phase von CCLK 
transparent und halt den Wert in der H-Phase. Das Freigabesignal 
gelangt auf das UND-Gatter-Paar (1603 und 1604), das den Takt 
freigibt. tiber einen Inverter (1605) wird das invertierte 
Taktsignal !CLK erzeugt, CLK lauft urn die Phasengleichheit zu 
gewahrleisten durch ein Verzogerungsglied (1606) (siehe Timing- 
Diagramm „One-Shot Betrieb") . Dabei wird CCLK in der Zuleitung 
zu 1604 uber zwei Verzogerungszeitungen (1610) verzogert urn 
Phasengleichheit zum an 1603 anliegenden CCLK, das durch den 
Multiplexer (1608) verzogert wurde, zu gewahrleisten. Wird eine 
PAE in den PowerSave-Mode gebracht, wird die Versorgungsspannung 
der Zelle weitgehend ausgeschaltet . Dies geschieht Uber das 
ODER-Gatter 1611. 1st der PowerSave-MODE eingeschaltet, d.h. 
PowerSave=l, fuhrt das negierte Signal L. Ist zudem der OneShot- 
MODE eingeschaltet und das Register 1602 auf L, wird tiber das 
OneShotPowerSave-Signal der Spannungsversorgungstransistor in 
der Power-UNIT (vgl. Figur 17) abgeschaltet . Steht das Register 
1602 jedoch auf logisch 1 (oder PowerSave=0) , wird der 
Spannungsversorgungstransistor Uber 1611 eingeschaltet. Die 
folgende Tabelle gibt einen Oberblick Uber die Funktion: 



PowerSave 


Latch 
(1602) 


Spannung 


Bemerkung 


L 


X 


an 




H 


L 


aus 


nur wenn 
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OneShot- MODE 
gesetzt ! 


H 


H 


an 





Beim Einschalten der Versorgungsspannung entsteht eine zeitlich 
bestimmte Aufwachzeit, bis die Zelle arbeitsfahig ist. Urn 
dennoch ordentlich zu funktionieren, mUssen die Signale 
entsprechend verzogert werden. Hierzu wird CCLK Uber eine 
Verzogerungsleitung (1607) geleitet. Ein Multiplexer (1608) 
wahlt entsprechend dem Signal PowerSave aus F-PLUREG aus, ob der 
normale oder verzogerte Takt an die Zelle geleitet wird. 
VerzQgert wird nur der nicht invertierte Takt urn den Zeitraum 
$\Delta$PowerOn, der invertierte Takt wird nicht verzogert. 
Dadurch steht das Ergebnis synchron zu den restlichen 
Bausteinfunktionen zur Verfugung. Dadurch verringert sich die 
nutzbare Verarbeitungszeit auf Aprocess. Die maximale 

Taktfrequenz des Bausteines hangt somit von APowerOn + Aprocess 
ab. (siehe Timing-Diagramm „One-Shot Betrieb mit PowerSave") . 

Figur 17 zeigt ein Implementierungsbeispiel einer PAE. Dabei ist 
die BM-Unit, die Power-Unit, die StateBack-Unit, der PLU-Bus und 
das M-PLUREG nicht dargestellt. 

Die PAE besitzt drei Eingangsregister oREGl (1701), oREG2 
(1702), oREG3 (1703) fiir die zu verarbeitenden *Daten. Ihre Daten 
erhalten die Eingangsregister uber die BM-Unit von vorangehenden 
PAE's. Alle Eingangsregister sind Register ohne Schiebefunktion. 

Die F-PLUREG (1704, 1705, 1706) bestimmen eine Mehrzahl von 
Konf igurationen der PAE. Sie werden von der PLU Uber den PLU-Bus 
geladen. In ihnen ist jeweils eine Konf iguration gespeichert, 
die Uber den Multiplexer (1723) ausgewahlt werden. Der 
Multiplexer (1723) wird vom Register (1724) angesteuert. Das 
Register (1724) bekommt Daten oder Trigger von einer 
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' vorangehenden PAE durch die BM-Unit. Diese PAE ist nicht mit den 
PAE's, welche die Daten fur die Eingangsregister liefern, 
identisch. Es sind selbstverstandlich auch eine grofiere Oder 
kleinere Anzahl an F-PLUREG denkbar. 

Das dritte Eingangsregister oREG3 (1703) liefert den Operanden 
fur eine Multiply-Add Funktion. Dabei wird der Inhalt des oREGl 

(1701) mit dem Inhalt des oREG2 (1702) im Multiplizierer (1709) 
multipliziert und anschliefiend der Inhalt des oREG3 (1703) im 
Addierer/Vergleicher (1718) hinzuaddiert . Der 
Addierer/Vergleicher ist dabei so konf iguriert, dafi er eine 
Addititon durchftihrt. Soil nur eine Multiplikation durchgefuhrt 
werden, wird das oREG3 (1703) mit dem Wert Null geladen. Soil 
nur eine Addition durchgefuhrt werden, so schaltet das F-PLUREG 
den Multiplexer (1711) urn. Damit gelangt der Wert des oREGl 

(1701) direkt zum Addierer/Vergleicher (1718) • Die zweite 
Funktion des Addierer/Vergleicher (1718) nimmt den Wert des 
oREGl (1701) und den Wert des OREG3 (1703) und vergleicht beide 
Werte. Die Ausgangssignale CarryOut-AlessB und AequalB-Odetect 

(1719) zeigen an, ob die beiden Werte gleich oder der Wert des 
oREG3 (1703) grSfier oder kleiner ist als der Wert des oREGl 

(1701) . 

Weitere in- der PAE realisierte Funktionen sind ein 
Schieberegister (1712), ein Dividierer (1713), logische 
Funktionen (1714) wie UND, OR, NOT, sowie ein ZShler (1715) . Der 
Zahler (1715) erzeugt ein Triggersignal (1720) sobald er von 
einem vorgegebenen Wert auf Null gezahlt hat. Geladen wird der 
ZShler (1715) direkt mit dem Wert, den auch das oREG3 (1703) 
erhalt. Es ist auch denkbar andere Zahler einzusetzen, wie 
Aufwartszahler, die von Null auf einen geladenen Wert zahlen und 
dann ein Triggersignal generieren. 

Die Ergebnisse der Funktionseinheiten werden durch den 
Multiplexer (1716) an die beiden Ausgangsregister rREGl (1710) 
und rREG2 (1717) weitergeleitet, die mit der BM-Unit in 
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" Verbindung stehen und so die Daten an nachfolgende PAE's 
weitergeben. Gesteuert wird der Ablauf von einer Sync-Unit 
(1708), die mit der Trigger-Logik (1707) verbunden ist. Aufierdem 
tauscht sie mit der Conf ig-State-Machine Steuersignale aus, die 
den korrekten Ablauf bei einer Anderung der Konf iguration durch 
den Multiplexer (1723) gewahrleisten. Die Trigger-Logik (1707) 
steht mit dem F-PLUREG in Verbindung und wertet die eingehenden 
Signale (1722), abhangig von der in den F-PLUREG gespeicherten 
Konf iguration aus . Die eingehenden Signale umfassen das 
ReConfig, das generelle Triggersignal, sowie die Handshake- 
Signale oRDY und rACK. Abhangig von der Konf iguration gibt die 
Trigger-Logik (1707) die Handshake-Signale an die Sync-Unit 
(1708) weiter, die wiederum die Enable-Signale fur die Eingangs- 
, Ausgangsregister und den Zahler generiert. AuJierdem erzeugt 
die Sync-Unit (1708) die ausgehenden Handshake-Signale oACK und 
rRDY, die sie zur Trigger-Logik (1707) weitergibt. Abhangig von 
der Konf iguration konnen die Signale (1719) oder der Trigger des 
Zahlers (1720) als generelles Trigger-Signal verwendet und zur 
Trigger-Logik (1707) geleitet werden. Von der Trigger-Logik 
(1707) ausgehend sind die Signale (1721) ReConfig, Handshake 
oRDY und rACK und das generelle Triggersignal, die wiederum zur 
BM-Unit geleitet werden. 

Figur 18 zeigt eine PAE mit dem gleichen Funktionsumf ang die in 
Figur 17 beschriebenen PAE. Auch hierbei wurde auf die 
Darstellung der BM-Unit, der Power-Unit, der StateBack-Unit und 
der M-PLUREG verzichtet. Sie besteht aus drei Eingangsregistern 
oREGl (1801), OREG2 (1802), oREG3 (1803), zwei Ausgangsregistern 
rREGl (1804), rREG2 (1818), drei F-PLUREG (1813, 1814, 1815), 
einem Multiplexer (1818) einer Sync-Unit (1805) und einer 
Trigger-Logik (1806) . Die Funktionseinheiten sind ein Dividierer 
(1807), ein Multiplizierer (1817), ein Addierer/Vergleicher 
(1809), Logikfunktionen (1810), ein Schieberegister (1811) und 
einem Zahler (1812) . Die Funktion der einzelnen Einheiten 
entspricht der in Figur 17 geschriebenen. Es ist auch denkbar 
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*' weitere Funktionen in der PAE zu integrieren wie z.B. die 
Trigonometrischen Funktionen, Wurzel- und Expoentialfunktion. 
Dies gilt selbstverstandlich auch fur die in Figur 17 
beschriebene PAE. Die einzelnen Funktionen sind als Integer oder 
Floating-Point Einheiten realisierbar . Im Unterschied zur PAE in 
Figur 17 sind die einzelnen Funktionseinheiten tiber ein 
Bussystem (1816) gekoppelt, so dafi die einzelnen Funktionen in 
beliebiger Reihenfolge miteinander verbunden werden kSnnen. Die 
Verschaltung wird durch die Konf iguration bestimmt, die in den 
F-PLUREG abgelegt ist. Das Bussystem (1816) kann auf 
verschiedene Weise aufgebaut werden. Moglich sind ein oder 
mehrere segmentierte Busse, deren Segmente jeweils zwei 
miteinander verschaltete Funktionen verbindet oder eine Anzahl 
durchgehender Busse, die jeweils zwei Funktioneinheiten 
miteinander verschalten. Weiterhin besteht die Moglichkeit, dafi 
die einzelnen Funktionseinheiten und Register eine Ziel-Addresse 
abschicken, mit deren Hilfe eine Verbindung aufgebaut wird. 

Figur 19 zeigt eine Conf ig-State-Machine, die die 
Konfigurationsregister verwaltet. Zu Beginn befindet sich die 
Conf ig-State-Machine im Zustand IDLE (1901) . Dieser Zustand wird 
erst verlassen, nachdem ein rRDY Signal der Config-PAE 
eintrifft, die das Konfigurationsregister auswahlt. Danach geht 
die Conf ig-State-Machine in. den Stop-Zustand (1902) uber und 
sendet ein Stop-Signal an die Sync-Unit der PAE. Die PAE beendet 
ihre Operation zum nachst mOglichen Zeitpunkt und sendet einen 
Stop-Acknowledge zur Conf ig-State-Machine. Diese geht in den 
Zustand Reload (1903) tlber und sendet ein Enable-Signal zum 
Register der Config-PAE. Danach wechselt die Conf ig-State- 
Machine in den Zustand Restart (1904), sendet ein Start-Signal 
zur Sync-Unit, die ihre Verarbeitung wieder aufnimmt. 
Gleichzeitig schickt sie ein rACK Signal zu der Config-PAE. 
Abschliefiend springt die Conf ig-State-Machine wieder in den IDLE 
Zustand (1901) . 
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Figur 20 stellt eine State-Machine zum automat ischen Durchlauf 
der verschiedenen Konf igurationen der PAE dar, die im Folgenden 
Loop-State-Machine genannt wird. Da mehrere F-PLUREG vorhanden 
sind, ist es u.U. sinnvoll mehrere Operationen nacheinander 
durchzufiihren und erst anschlieiiend die Daten, sowie die 
Triggersignale und Handshake-Signale zur nachfolgenden PAE 
weiterzugeben. 

Das Ergebnis der einzelnen Operationen wird vom rREG der PAE 
Uber die bereits beschriebene RUckkopplung zu den 
Eingangsregistern zurttckgefiihrt . Dieser Vorgang kann uber ein 
von einem externen Stop-Loop-Signal oder einem internen Zahler 
gesteuert werden. 

Zu Beginn befindet sich die Loop-State-Machine im IDLE Zustand 
(2001) • Im IDLE-Zustand (2001) gibt die Loop-State-Machine ein 
Reset-Signal an einen Zahler. Dieser Zahler dient zur Anwahl des 
F-PLUREG. Nach dem rRDY der vorangehenden PAE geht die Loop- 
State-Machine in den Konf igurationszustand (2002) uber. Dabei 
erzeugt sie die Handshake-Signale fur die PAE und die 
Kontrollsignale ftir die Conf ig-State-Machine . Aufierdem wird ein 
Enable-Signal ftir den Z&hler erzeugt, dessen Wert urn Eins erhoht 
wird. Bekommt die Loop-State-Machine nun kein Stop-Loop-Signal 
oder hat der interne Zahler der PAE noch nicht seinen Endwert 
erreicht/ verbleibt sie im Konf igurationszustand (2002) und der 
zuvor beschriebene Ablauf wiederholt sich. Beim Eintreffen eines 
Stop-Loop-Signals oder wenn der interne Zahler der PAE seinen 
Endwert erreicht hat, kehrt die State-Machine in den IDLE- 
Zustand (2001) zurtick und das rRDY Signal wird zur nachfolgenden 
PAE geleitet. 

Figur 21 zeigt den fur den sequentiellen Durchlauf, der in den 
F-PLUREG gespeicherten Konf igurationen benotigten Teil der PAE. 
Die F-PLUREG (2104) erhalten ihre Dateri von der PLU (2107) und 
sind gegenilber den zuvor beschriebenen Ausfuhrungen etwas 
modifiziert. Jedes F-PLUREG enthait ein zusatzliches Bit, das 
sogenannte Loop-Bit (2106) . Dieses Loop-Bit wird zur in Figur 20 
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beschriebenen Loop-State-Machine (2101) durch die Verbindung 
(2112) zurtickgeftlhrt . Es dient dort als Stop-Loop Signal, das' 
heifit bei gesetztem Loop-Bit (2106) wird der Loop-Vorgang 
beendet, ansonsten wird er fortgeftihrt bis das Loop-Bit gesetzt 
wird Oder der in Figur 20 beschriebene interne Zahler der Loop- 
State Machine (2101) seinen Endwert erreicht hat. Die Loop- 
State-Machine (2101) steuert den Zahler (2102) an, dessen Wert 
die Selektion des F-PLUREG (2104) durch den Multiplexer (2105) 
steuert. Die Kontrollsignale der Conf ig-State-Machine und die 
Handshake-Signale der PAE werden durch die Verbindung (2113) 
Ubertragen. Die Konf igurationsdaten der F-PLUREG werden liber die 
Verbindung (2108) zu den Funtionseinheiten der PAE 
weitergegeben. 

Der Zahler (2102) erhalt ein Enable-Signal (2110), so dafi der 
Wert des Zahlers (2102) um Eins erhoht wird. Aufierdem gibt die 
Loop-State-Machine (2101) sobald ein Loop- Vorgang beendet ist, 
ein Reset-Signal (2111) an den zahler. Ober den Multiplexer 

(2103) kann zwischen Loop-Mode und dem normalen Ablauf in der 
PAE ausgewahlt werden. Beim normalen Ablauf gibt der Multiplexer 

(2103) ein Datum (2109) zur Auswahl eines F-PLUREG (2104) an den 
Multiplexer (2105) weiter. 
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5 Begriffsdefinition 

AequalB-Odetect Durch die EALU generiertes Signal, das bei arithmetischen 
Operationen anzeigt, dafi das Ergebnis gleich null ist. Bei Ver- 
gleichen wird angezeigt, dafi Operand A gleich Operand B ist. 



ALU 



BM-UNIT 



Broadcast 



Arithmetisch logische Einheit. Grundeinheit zum Verarbeiten 
von Daten. Die Einheit kann arithmetische Operationen wie 
Addition,' Subtraktion, unter Umstanden auch Multiplikati- 
on, Division, Reihenentwicklungen usw. durchfiihren. Dabei 
,kann die Einheit als ganzzahlige (integer) Einheit oder ais 
Fliefikomma-(floating-point)-Einheit gestaltet sein. Ebenfalls 
kann die Einheit logische Operationen, wie UND, ODER, so- 
wie Vergleiche durchfiihren. 

Einheit zum Aufschalten der Daten auf die Bussysteme aufler- 
halb der PAE. Das Aufschalten geschieht iiber Multiplexer fur 
die Dateneingange und Tore fur die Datenausgange. oACK- 
Leitungen sind als Open-Kollektor-Treiber implementiert. Die 
BM-UNIT wird durch das M-PLUREG gesteuert. 

Senden von Daten einer PAE an mehrere Datenempfanger. 



CarryOut-AlessB Durch die EALU generiertes Signal, das bei arithmetischen 
Operationen einen t)bertrag anzeigt. Bei Vergleichen wird an- 
gezeigt, dafi Operand A kleiner als Operand B ist. 

Datenempfanger Die Einheit(en), die Ergebnisse der PAE weiterverarbeitet/- 
arbeiten 

Datensender Die Einheit(en), die Daten fiir die PAE als Operanden zur 
Verfiigung stellt/stellen 

D-FlipFlop Speicherelement, welches ein Signal bei der steigenden Flanke 

eines Taktes speichert. 

EALU Erweiterte arithmetisch logische Einheit. ALU, die um Sonder- 

funktionen, die zum Betrieb einer Datenverarbeitungseinrich- 
tung gemalfi DE 441 16 881 Al benotigt werden oder sinnvoll 
sind erweitert wurde. Dies sind ins besondere Zahler. 

FPGA Programmierbarer Logikbaustein. Stand der Technik. 

F-PLUREG Register in dem die Funktion der PAE gesetzt wird. Ebenfalls 

wird der OneShot- und Sleep-Mode gesetzt. Das Register wird 
von der PLU beschrieben. 

Gatter Gruppe von Transistoren, die eine logische Grundfunktion 

durchfiihren. Grundfunktionen sind z.B. NAND, NOR, Trans- 
mission-Gates. 

H-Pegel Logisch 1 Pegel, abhangig von der verwendeten Technologie 

Handshake Signalprotokoll, bei dem ein Signal A einen Zustand anzeigt 

und ein anderes Signal B bestatigt, dafi es Signal A akzeptiert 
und darauf reagiert (hat). 
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Konfigurieren 



Latch 



L-Pegel 
M-PLUREG 



Bestimmen der Funktion und Vernetzung einer logischen Ein- 
heit, einer (FPGA)-Zelle oder einer PAE (vgl. umkonfigurie- 
ren). 

Speicherelement, das ein Signal fur gewohnlich wahrend des 
H-Pegels transparent weiterleitet und wahrend des L-Pegels 
speichert. In PAEs werden teilweise Latches gebraucht, bei 
denen die Funktion der Pegel genau umgekehrt ist. Hierbei 
wird vor den Takt eines ublichen Latch ein Inverter geschaltet. 

Logisch 0 Pegel, abhangig von der verwendeten Technologie 

Register in dem die Vernetzung der PAE gesetzt wird. Das 
Register wird von der PLU beschrieben. 



Next-Neighbour Vernetzung Vernetzung der Bussysteme mit den an den Kan- 
ten anstofienden Nachbarn. 



O-MUX 



OneShot 



Open-KoIIektor 



O-REG 



O-REGsft 

PA 

PAE 

PLU 



Multiplexer innerhalb der BM-UNIT, der das Bussystem der 
Operanden auswahlt. 

Modus in dem eine PAE mit einem geringerem als dem Pro- 
'zessortakt arbeitet. Der Takt ist synchron zum Prozessortakt 
und entspricht einer Periode. Eine Phasenverschiebung exi- 
stiert nicht. Der Takt wird fiber eines der Signale oRDY(l/2) 
oder rRDY freigegeben. Dieser Modus dient der Stromeinspa- 
rung, wenn die Datensender oder -empfanger langsamer als 
der Prozessortakt Daten senden oder empfangen. 

Schaltungstechnik, bei der der Kollektor eines Transistors an 
einem, uber einen Pullup auf den H-Pegel gezogenen, Bussi- 
gnal liegt. Der Emitter der Transistors liegt auf Masse. Schal- 
tet der Transistor, so wird das Bussignal auf den L-Pegel 
gezogen. Vorteil des Verfahrens ist, dafi eine Mehrzahl sol- 
cher Transistoren den Bus ohne elektrische Kollision steuern 
konnen. Dabei sind die Signale ODER-verkupft, es entsteht 
das sog. wired-OR. 

Operandenregister zur Speicherung der Operanden der EA- 
LU. Ermoglicht die zeitliche und funktionelle Unabhangigkeit 
der PAE von den Datensendem. Dadurch wird der Transfer 
der Daten vereinfacht, da er asynchron oder paketorientiert 
stattfinden kann. Gleichzeitig wird die M5glichkeit geschafFen 
die Datensender unabh&ngig von der PAE oder die PAE un- 
abhangig von den Datensendem umzukonfigurieren. 

O-REG mit durch SM-UNIT gesteuertem Schieberegister. 

Processing Array: Array aus PAEs 

Processing Array Element: EALU mit O-REG, R-REG, R20- 
MUX, F-PLUREG, M-PLUREG, BM-, SM-, Sync-, StateBack- 
und Power-UNIT. 

Einheit zum Konfigurieren und Umkonfigurieren der PAE. 
Ausgestaltet durch einen speziell an seine Aufgabe angepaflten 
Mikrokontrollcr. 
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PowerSave-MODE Stromsparmodus Modus innerhalb des OneShot-MODE. 

Wahrend keine Operation ausgefiihrt wird, werden alle Teile 
der PAE mit Ausnahme des F-, M-PLUREG und Sync-UNIT 
nicht mit Spannung versorgt. 



Power-UNIT 
PullDown 
PullUp 
R-GATE 



Einheit die die Stromsparfunktionen regelt. 

Widerstand, der eine Busleitung auf einen L-Pegel zieht. 

Widerstand, der eine Busleitung auf einen H-Pegel zieht. 

Schalter ipnerhalb der BM-UNIT, der das Ergebnis auf das 
entsprechende Bussystem aufschaltet. Dabei sind einige Signal 
uber als Open-Kollektor-Treiber aufgeschaltet. Das R-GATE 
arbeitet als Bustreiber und kann in einen busneutralen Modus 
gehen. 

Multiplexer zum Einschleifen des Ergebnisses in einem R-REG- 
sft in den Datenpfad zwischen O-REG und EALU. 

Ergebnisregister zur Speicherung des Ergebnis der EALU. Er- 
moglicht die zeitliche und funktionelle Unabhangigkeit der 
PAE von den Datenempfangern. Dadurch wird der Transfer 
der Daten vereinfacht, da er asynchron oder paketorientiert 
stattfinden kann. Gleichzeitig wird die Moglichkeit geschaf- 
fen die Datenempfanger unabhangig von der PAE oder die 
PAE unabhangig von den Datenempfangern umzukonfigurie- 
ren. Das Register ist mit einer Schiebfunktion versehen, die 
von der SM-UNIT gesteuert wird. 

serielle Operationen Operationen, die durch serielles Abarbeiten eines Daten- 
wortes oder eines Algorithmus durchgefiihrt werden. Serielle 
Multiplikation, serielle Division, Reihenentwicklung 



R20-MUX 



R-REGsft 



Sleep-MODE 



SM-UNIT 



Stromsparmodus in dem die PAE mit Ausnahme von F-PLU- 
REG ohne Spannung ist. 

StateMachine-UNIT. Zustandsmaschine, die die EALU steu- 
ert. 



StateBack-UNIT Einheit, die die Riickmeldung der Statussignale an die PLU 
steuert. Bestehend aus einem Multiplexer und einer Open- 
Kollektor-Bustreiberstufe 

Sync-UNIT Einheit, die die Synchronisation der PAE mit den Datensen- 

dern und -empf&ngern ubernimmt, sowie das Umkonfigurie- 
ren von PAEs uberwacht. Gleichzeitig werden die OneShot- 
Funktionen ubernommen. 

Tor Schalter, der ein Signal weiterleitet oder sperrt. Einfacher Ver- 

gleich: Relais 

Umkonfigurieren Neues Konfigurieren von einer beliebigen Menge von PAEs 
wahrend eine beliebige Restmenge von PAEs ihre eigenen Funk- 
tionen fortsetzen (vgl. konfigurieren). 

Zustandsmaschine Logik, die diversen Zustanden annehmen kann. Die Uber- 
gange zwischen den Zustanden sind von verschiedenen Ein- 
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gangsparametern abhangig. Diese Maschinen werden zur Steue- 
rung komplexer Funktionen eingesetzt und entsprechen dem 
Stand der Technik 
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6 Konventionen 
6.1 Namenskonvention 

Baugruppe -UNIT 

Betriebsart -MODE 

Multiplexer -MUX 

Negiertes Signal not- 

Register fiir PLU sichtbar -PLUREG 

Register intern -REG 

Schieberegisters -sft 



6.2 Funktionskonvehtion 

Schieberegisters sft 
UND-Funktion & 



ODER-Funktion # 



NICHT-Funktion ! 



A 


B 


Q 


0 


0 


0 


0 


1 


0 


1 


0 


0 


1 


1 


1 


# 


A 


B 


Q 


0 


0 


0 


0 


1 


1 


1 


0 


1 


1 


1 


1 


I 






A 


Q 




0 


l 




1 


0 
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TOR-Funktion G 



EN 


D 


Q 


0 


0 




0 


1 




1 


0 


0 


1 


1 


l 
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Patentanspruche 

1. Konfigurierbare, von einer Ladelogik (PLU) gesteuerte wahrend 
der Laufzeit umkonf igurierbare Einheit zur Verarbeitung von 
numerischen und logischen Operationen (PAE) , zum Einsatz in 
Prozessoren (CPUs) , Mehrrechnersystemen, Datenf lufiprozessoren 
(DFPs), Digitalen Signal Prozessoren (DSPs), systolischen 
Prozessoren und programmierbaren Logikbausteinen ( FPGAs ) , 
dadurch gekennzeichnet, 

dafi a) eine programmierbare Recheneinheit (EALU) zur 
Durchfiihrung der mathematischen und logischen 
Grundfunktionen vorgesehen ist, 

dafi b) die Funktion und Vernetzung der Recheneinheit in 

Register programmiert wird und eine Vielzahl von Daten, 
ohne Umprogrammierung der PAE, verarbeitet werden kann, 

dafi c) zur Steuerung der Recheneinheit (EALU) eine 
Zustandsmaschine (SM-UNIT) existiert, 

dafi d) Register fur jeden Operanden (O-REG) und das Ergebnis 
(R-REG) vorgesehen sind, wobei die Register teilweise 
als Scheiberegister ausgeftihrt werden konnen, 

dafi e) eine Rilckkopplung der Daten des Ergebnisregisters auf 

einen Eingang der EALU Uber einen Multiplexer (R20-MUX) 
besteht, 

dafi f) eine Buseinheit (BM-UNIT) den Abgriff der Daten von 

einem Bussystem bzw. das Einspeisen des Ergebnisses auf 
ein Bussystem ermoglicht, wobei die Buseinheit Daten an 
mehrere Empfanger versenden kann und die 
Synchronisierung auch mehrerer Empf anger " automatisch 
erfolgt, 

dafi g) der Buszugriff von der Datenverarbeitung in der EALU 

Uber die Register entkoppelt ist und somit jede PAE als 
unabhangige Einheit betrachtet werden kann, 
insbesondere die Konf iguration und Umkon figuration eine 
PAE keinen storenden Einflufi auf die Datensender und - 
empf anger, sowie die unabhangigen PAEs hat, 
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-dafi h) der Ablauf der Bustransfers tiber eine Zustandsmaschine 
(SYNC-UNIT) automatisch gesteuert wird und dafur 
Handshake-Lei tungen oRDY, oACK, rRDY und rACK zur 
Verfugung stehen, und 
dafi i) Rtickmeldungen an die PLU zur Erkennung des Zustandes der 

Verarbeitung und der Umkonf igurierbarkeit der PAE erfolgen 
(StateBack-UNIT) , 

2. Einheit nach Anspruch 1, dadurch gekennzeichnet, dafi 

die Datenverarbeitung einer PAE angehalten werden kann (Eintrag 
STOP in F-PLUREG) und die PAE daraufhin nach Vollendung der 
gerade laufenden Datenverarbeitung ihre Bereitschaft zur 
Umkonf iguration anzeigt (ReConfig) . 

3. Einheit nach Anspruch 1, dadurch gekennzeichnet, dafi 
Stromsparmodi existieren, 

a) in welchen die PAE immer nur dann arbeitet, wenn Operanden 
vom Datensender am Eingang bereitstehen und das Ergebnis 
bereits vom Empf anger angenommen wurde, und die PAE ansonsten 
ohne Takt statisch bleibt, 

b) in welchen Teilbereiche der PAE, die zur Ausfiihrung der 
momentanen Datenverarbeitung irrelevant sind, von der Takt- 
und/oder Stromversorgung getrennt sind, 

c) in welchen die PAE von der Spannungsversorgung getrennt ist. 
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Fig. 13 
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Fig. 19 
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Wahrend der internationalen Recherche konsultierte elektronische Datenbank (Name der Datenbank und evtl. verwendete Suchbegriffe) 



C. ALS WESENTLICH ANGESEHENE UNTERLAGEN 



Kategorie' Bezeichnung der Veroffentlichung, soweit erforderlich unter Angabe der in Betracht kommenden Teile 



Betr. Anspruch Nr. 



US 5 336 950 A (POPLI SANJAY ET AL) 

9. August 1994 

siehe das ganze Dokument 

US 5 430 687 A (HUNG LAWRENCE C ET AL) 
4. Jul i 1995 

siehe Spalte 6, Zeile 58 - Zelle 60; 
Abbildungen 1,2 

EP 0 735 685 A (SGS THOMSON 
MICROELECTRONICS) 2.0ktober 1996 
siehe das ganze Dokument 

-/- 



1,2 



Weitere Veroffentlichungen sind der Forlsetzung von Fetd C zu 
entnehmen 



Siehe Anhang Patentfamilie 



' Besondere Kategonen von angegebenen Veroftentlichungen 

"A- Veroffentlichung, die den allgemeinen Stand der Technik definiert. 
aber nicht als besonders bedeutsam anzusehen ist 



"E" 



'V 



alteres Ookument. das jedoch erst am Oder nach dem internationalen 
Anmeldedatum veroffentiicht worden ist 



Veroffenttichung. die geeignet ist. einen Prloritatsanspruch zweifelhaft er- 
scheinen zu lassen. Oder durch die das Ver6ffentlichung3datum einer 
anderen im Recherchenbericht genannten Veroffentlichung belegt werden »y 
soli oder die aus einem anderen besonderen Grund angegeben ist (wie 
ausgefuhrt) 

"O" Veroffentlichung, die sich auf eine mundliche Offenbarung, 

eine Benutzung. erne Ausstellung oder andere MaBnahmen bezieht 

V Veroffentlichung, die vor dem internationalen Anmeldedatum. aber nach 
dem beanspruchten Prioritatsdatum veroffentiicht worden ist 



Spatere Veroffentlichung, die nach dem internationalen Anmeldedatum 
oder dem Prioritatsdatum veroffentiicht worden ist und mil der 
Anmeldung nicht kollidlert, sondern nur zum Verstandnis des der 
Erf indung zugrundeliegenden Prinzips oder der ihr zugrundeliegenden 
Theorie angegeben ist 

Veroffentlichung von besonderer Bedeutung; die beanspruchte Erf Indung 
kann allein auf grund dieser Veroffentlichung nicht als neu Oder auf 
erfinderischer Tatigkeit beruhend betrachtet werden 

Veroffentlichung von besonderer Bedeutung; die beanspruchte Erfindung 
kann nicht als auf erfinderischer Tatigkeit beruhend betrachtet 
werden. wenn die Veroffentlichung mit einer oder mehreren anderen 
Verdffentlichungen dieser Kategone in Verbindung gebracht wlrd und 
diese Verbindung fur einen Fachmann naheliegend ist 

Verbffentllchung, die Mitglied derselben Patentfamilie ist 



Datum des Abschlusses der internationalen Recherche 



7. Mai 1998 



Absendedatum des internationalen Recherchenbenchts 



26/05/1998 



Name und Postanschnft der Internationalen Recherchenbehorde 
Europaisches Patentamt. P. B. 5818 Patentlaan 2 
NL - 2280 HV Rijswijk 
Tel. (+31-70) 340-2040, Tx. 31 651 epo n» t 
Fax: (+31-70) 340-3016 



Bevoilmachtigter Bediensteter 



Michel, T 



INTERNATIONALER RECHERCHENBERICHT 


Inter males Aktenzeichen 

PCT/DE 97/02949 


C.(Fortsetzung) ALS WESENTLICH ANGESEHENE UNTERLAGEN 


Kategone- 


Bezeicnnung der Veroffentlichung, soweit ertoraeriich unter Angabe der in Betracht kommenden Teile 


Betr. Ansprucn Nr. 


A 


MAXFIELD C: "Logic that mutates 
while-u-wait" 

EDN (EUR. ED.) (USA), EDN (EUROPEAN 
EDITION), 7 NOV. 1996, CAHNERS PUBLISHING, 
USA, 

Bd. 41. Nr. 23, ISSN 0012-7515, 

Selten 137-140, 142, XP002064224 

siehe Seite 1384, rechte Spalte, Zeile 3 - 

Zeile 27 


l 



INTERNATIONALER RECHERCHENBERICHT 

Angaben zu Verbftentlichung^n. die zur selben Patenttamilie gehoren 



inter naies Aktenzeicnen 

PCT/DE 97/02949 



Im Recherchenbericht 


Datum der 




Mitglied(er) der 


Datum der 


diiyciuiiikCD relict ULiuisui i ici u 


Vprnffpntlirhtmn 




Patenttamilie 


Verdffentiichung 


US 5336950 A 


09-08-94 


US 


5338984 A 


16-08-94 






US 


5317209 A 


31-05-94 






US 


5329180 A 


12-07-94 






US 


5341040 A 


23-08-94 






US 


5319255 A 


07-06-94 






US 


5298805 A 


29-03-94 






US 


5323069 A 


21-06-94 






US 


5296759 A 


22-03-94 | 



US 5430687 A 04-07-95 
EP 0735685 A 02-10-96 



KEINE 



US 5111079 A 05-05-92 

DE 69127241 D 18-09-97 

DE 69127241 T 26-02-98 

EP 0465002 A 08-01-92 

JP 4233825 A 21-08-92 



